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跨 媒体 分 析 与 检索 技术 研究 进展 


王 树 徽 黄 庆 明 


摘要 在 网 络 跨 媒体 应 用 迅速 兴起 , 网 络 内 容 对 网 络 用 户 影 响 日 益 深刻 的 背景 下 ， 本 文 介绍 了 跨 媒 体 分 析 与 
检索 的 相关 理论 和 方法 ， 包 括 如 何 提取 网 络 跨 媒 体 数据 的 多 源 自然 属性 和 社会 属性 ， 揭 示 海 量 跨 媒体 的 语 
义 多 样 性 及 数据 关联 和 内 在 信息 传播 机 制 ， 内 容 涵盖 以 下 几 方面 : 首先 ， 讨 论 网 络 跨 媒体 数据 的 跨 平台 、 
多 模 态 和 来 源 广泛 等 特性 及 其 带 来 的 挑战 和 机 遇 ， 介 绍 跨 媒体 分 析 技 术 的 特点 和 传统 单一 媒体 分 析 的 不 同 
之 处 ， 以 及 跨 媒 体 可 能 带 来 的 科学 和 社会 影响 力 ;， 接 下 来 ， 分 别 从 跨 媒体 语义 分 析 与 理解 、 跨 媒体 关联 建 
模 和 跨 媒体 社 群 分 析 等 三 个 方面 介绍 跨 媒体 分 析 与 检索 技术 的 国内 外 研究 现状 ;， 最后， 介绍 中 科 院 计算 所 
智能 信息 处 理 重点 实验 室 在 跨 媒体 语义 分 析 理 解 ， 跨 媒体 中 热点 事件 和 话题 分 析 以 及 跨 媒体 用 户 行为 分 析 
等 方面 的 研究 情况 。 
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1 介绍 


随 着 互联 网 技术 和 多 媒体 技术 的 飞速 发 展 ， 互 联网 正在 越 来 越 深 入 人 们 的 生产 、 生 活 、 
娱乐 和 社会 交往 等 活动 当中 。 近 年 来 , 网络 多 媒体 和 移动 多 媒体 用 户 的 数量 呈现 飞速 增长 态 
势 ， 社 交 网 络 等 新 兴 媒 体 在 网 络 用 户 群 体 的 使 用 率 也 接近 其 至 超过 50%。 同 时 ， 文 本 已 不 
再 是 信息 和 知识 的 唯一 载体 ， 知 识 的 传播 正在 以 更 为 灵活 、 多 样 、 丰 富 和 翔实 的 方式 进行 ， 
言 县 与 知识 呈现 多 来 源 化 ， 跨 媒介 化 以 及 关联 多 样 化 等 种 种 特性 。 另 一 方面 ， 随 着 交互 式 网 
络 技术 的 飞速 发 展 ， 微 博 、 图 像 视频 分 享 网 站 、 社 交 网 络 等 诸多 平台 的 兴起 与 普及 ， 越 来 越 
多 的 用 户 在 网 络 上 以 发 布 消息 、 张 贴图 片 视频 等 方式 传播 消息 、 表 达观 点 , 通过 与 其 他 用 户 
的 信息 交互 机 制 获取 大 量 知识 。 


网 络 数 据 除了 呈现 海量 性 特点 之 外 , 数据 之 间 的 关联 性 也 在 不 断 增强 。 这 种 关联 性 也 成 
S 为 网 络 信息 除了 自身 内 容 之 外 的 另外 一 个 重要 来 源 。 在 文本 搜索 领域 , 互联 网 搜索 引擎 公司 
d Ak (Google) 利用 的 PageRank 技术 ， 通 过 分 析 和 利用 网 页 内 容 之 间 的 超 链 接 信息 对 网 页 
的 重要 性 进行 计算 ， 为 海量 网 络 内 容 检索 带 来 了 革命 性 的 突破 。 与 文本 相 比 ， 网 络 多 媒体 数 
据 之 间 的 关联 性 较 之 一 般 的 文本 网 页 更 加 丰富 。 例 如 ,网络 图 像 和 视频 一 般 与 大 量 的 环绕 文 
字 共同 出 现 , 这 些 环绕 文字 提供 了 对 视觉 内 容 的 描述 性 信息 。 由 于 交互 式 网 络 技术 的 兴旺 发 
展 ， 网 络 用 户 可 对 跨 媒体 进行 编辑 和 标注 ， 对 视觉 内 容 提供 标注 信息 ， 可 以 自由 转载 、 分 享 
和 评论 跨 媒 体内 容 。 如 何 有 效 地 分 析 利 用 这 类 信息 , 成 为 多 媒体 信息 检索 领域 研究 的 核心 问 


题 。 


ag 


络 跨 媒 体 ， 语 义 分 析 与 理解 ， 热 点 事件 和 话题 分 析 ， 跨 媒体 用 户 行为 分 析 


总 体 而 言 ， 网 络 信息 越 来 越 呈现 海量 、 来 源 广 泛 、 跨 媒介 、 复 杂 关 联 等 特性 ， 数 据 与 用 
户 之 间 存 在 密 不 可 分 的 互动 关系 。 这 些 来 自 不 同 平台 的 不 同类 型 的 媒体 和 与 之 相关 的 社会 属 
性 信息 更 加 紧密 地 混合 在 一 起 ， 以 一 种 轨 新 的 形式 ， 更 为 形象 地 表示 综合 性 知识 ， 反 映 个 体 
或 者 群体 的 社会 行为 。 这 种 新 的 称 为 “ 跨 媒 体 (Cross-medial)” 的 媒体 表现 形式 呈现 出 如 下 三 
个 基本 属性 : 


加 ”固有 的 跨 模 态 和 跨 平 台 属性 即 文字 、 图 像 、 视 频 、 声 音 和 链接 等 结构 化 或 非 结构 
化 的 跨 模 态 属性 及 不 同 网 络 平台 的 数据 之 间 的 物理 连接 和 高 度 相关 的 内 容 的 多 态 
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有 助 于 解决 跨 媒 体 数据 的 复杂 分 布 和 语义 鸿沟 问题 。 
第 二 ， 跨 媒体 检索 是 新 一 代 媒 体内 容 服 务 的 趋势 之 一 。 对 跨 媒 体检 索 技术 的 迫切 需求 ， 


可 以 从 两 个 方面 来 概括 。 首 先 ， 由 于 跨 媒 体 数 据 的 不 断 涌现 ， 网 络 用 户 早已 不 满足 于 检索 和 


浏览 单一 形态 的 媒体 内 容 ， 而 往往 希望 通过 更 加 灵活 的 方式 对 信息 进行 查找 和 搜集 。 例 如 ， 
] 户 希望 通过 输入 一 些 文本 查询 ， 找 到 具有 相关 内 容 的 网 页 、 视 频 、 图 像 和 音频 等 ， 或 者 通 


过 输入 一 幅 素 描 的 长 城 , 检索 关于 长 城 的 自然 图 像 或 者 油画 等 。 如 何 根 据 用 户 的 任意 输入 查 
询 来 查找 及 定制 不 同 来 源 的 多 种 模 态 的 媒体 信息 ， 已 经 成 为 迫在眉睫 的 问题 。 另 一 方面 , 未 
来 以 人 为 中 心 的 数据 检索 技术 应 能 对 任意 类 型 的 输入 进行 处 理 ， 并 准确 理解 用 户 意 图 , 正确 


返回 用 户 感 兴趣 的 目标 跨 媒 体 数据 。 为 达到 上 述 目 的 ， 其 关键 在 于 如 何 建立 不 同 模 态 、 不 同 
来 源 数据 的 具有 语义 一 致 性 的 可 度量 紧 凌 表示 。 通 过 融合 跨 媒 体 数 据 的 多 源 信 息 〈 例 如 : 内 


容 共 生性 信息 、 语 义 标注 信息 、 超 链接 信息 、 社 会 信息 等 )， 构 建 跨 媒 体 数据 的 多 源 知 识 表 


示 模 型 ， 构 建 有 利于 有 效 学 习 的 跨 媒体 语义 一 致 性 度量 表示 。 


4} 交换 、 ~ EME 里 的 核心 问题 之 一 。 


第 三 , 由 于 跨 媒 体 数 据 的 海量 性 和 用 户 偏好 的 多 样 性 , 媒体 信息 的 个 性 化 定制 是 信息 内 


随 着 以 社交 媒体 为 代表 的 网 络 信息 分 享 网 站 的 崛起 和 


涌现 , 每 时 每 刻 都 会 有 数 以 万 计 的 各 种 媒体 信息 在 网 络 上 出 现 和 传播 。 普 通 民 众 从 信息 的 接 
收 者 变 成 了 数据 和 网 络 话题 的 制造 者 和 直接 参与 者 , 并 通过 各 类 网 络 应 用 连结 在 一 起 形成 网 


络 群 体 连 接 关 系 。 这 种 关系 包含 现实 生活 在 网 络 上 的 延伸 ， 也 包含 因为 拥有 相同 而 明确 的 
标 和 期 望 而 关 联 起 来 的 纯 虚 拟 群 体 。 社 群 的 形成 往往 建立 在 共同 的 兴趣 、 喜 好 背景 或 者 对 某 
种 事物 的 共同 认 知 或 关注 上 , 因而 社 群 内 的 成 员 往往 具有 某 些 相似 或 关联 属性 , 例如 对 跨 媒 


体内 容 的 认 知 喜好 、 对 网 络 事件 的 观点 看 法 等 。 如 何 根据 对 用 户 的 属性 、 行 为 和 意图 分 析 ， 


从 海量 的 数据 中 找到 所 需要 的 目标 内 容 ， 是 一 个 非常 具有 挑战 性 的 难题 。 


综 上 所 述 ， 跨 媒体 的 兴起 ,为 新 一 代 网 络 多 媒体 检索 提供 了 前 所 未 有 的 发 展 机 遇 。 以 往 


p 


专注 于 多 媒体 自身 内 容 分 析 的 研究 思路 已 不 能 很 好 地 适应 跨 媒体 数据 的 跨 模 态 、 跨 平台 等 多 
源 属 性 , 不 能 有 效 利 用 数据 之 间 的 关联 关系 , 对 跨 媒 体内 容 进 行 更 为 深入 的 内 容 理 解 和 更 准 
确 的 检索 。 男 一 方面 ,由 于 跨 媒 体 数 据 所 固有 的 社会 属性 反 虹 了 跨 媒 体 数 据 本 身 与 网 络 社 群 


] 户 之 间 的 紧密 关联 关系 , 这 为 研究 更 加 人 性 化 和 个 性 化 的 跨 媒 体检 索 技 术 提供 了 很 好 的 契 
机 。 针 对 跨 媒 体 的 数据 多 源 性 、 跨 模 态 性 、 海 量 性 及 分 布 复 杂 且 不 均衡 等 特点 ,研究 有 效 的 


跨 媒 体 语义 分 析 和 检索 技术 , 对 网 络 社 群 行为 进行 建 模 分 析 , 充分 挖掘 跨 媒 体 信 息 处 理 和 网 
络 社 群 用 户 行为 之 间 的 关系 ， 可 为 海量 跨 媒体 信息 处 理 提供 新 的 解决 方案 。 从 应 用 角度 讲 ， 


这 又 会 为 个 性 化 检索 、 推 荐 、 内 容 定 和 


讯 发 布 给 予 指导 。 从 社会 角度 来 说 , 跨 媒 体 分 析 为 网 络 的 内 容 过 滤 和 网 络 社 群 行为 分 析 提 供 


判 提供 契机 ， 为 更 有 效 地 进行 内 容 推送 、 广 告 投放 、 资 


强 有 力 的 支持 ， 有 助 于 维护 社会 公共 安全 ， 促 进 社 会 公平 正义 ， 保 持 社 会 良好 秩序 。 


2 国内 外 研究 现状 


由 于 网 络 和 多 媒体 技术 的 不 断 发 展 , 网 络 多 媒体 数据 呈现 爆炸 性 增长 趋势 。 对 多 源 跨 媒 
体 数据 智能 处 理 已 经 受到 国内 外 学 者 的 广泛 关注 , 近年 来 涌现 了 大 量 的 研究 成 果 。 跨 媒体 分 
析 涉 及 的 领域 较 多 , 例如 : 多 媒体 分 析 、 计 算 机 视觉 、 自 然 语 言 处 理 、 音 频 分 析 、 网 页 分 析 、 
社会 网 络 分 析 等 等 。 本 文 将 从 三 个 跨 媒体 的 核心 分 析 对 象 〈 语 义 、 关 联 、 社 群 ) 来 对 相关 工 


作 进 行 剖 析 。 


2.1 海量 跨 媒 体 数据 的 语义 分 析 与 理解 
跨 媒 体 数 据 体 量 巨 大 ， 内 容 丰 富 多 样 。 其 中 (尤其 是 视觉 数据 〉 纺 含 的 语义 信息 对 于 跨 


3 
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a 


媒体 分 析 理 解 起 到 至 关 重 要 的 作用 。 对 于 视觉 数据 ,特征 表示 往往 直接 影响 模型 的 最 终 性 能 。 
然而 ,受制 于 图 像 底 层 特征 和 高 层 语义 之 间 的 语义 鸿沟 四， 图 像 的 类 别 信 息 很 难 直 接 从 视觉 


底层 特征 直接 获得 。 另 一 方面 , 现 有 的 不 同 视觉 底层 特征 一 般 从 具体 的 某 一 方面 (例如 颜色 、 


纹理 和 形状 信息 ) 描述 视觉 


内 容 * 。 不 同 的 底层 特征 对 不 同类 别 的 图 像 识别 的 贡献 不 尽 相 


同 。 即 使 对 于 某 个 典型 主题 的 图 像 内 容 ， 不 同 的 表现 形式 以 及 白天 、 黑 夜 等 不 同 光 照 条 件 ， 


在 带 来 不 同 的 感官 感受 的 同时 也 由 于 其 所 具有 的 丰富 视觉 内 容 造 成 了 网 络 图 像 检索 、 分 类 模 


型 学 习 的 困难 。 研 究 者 致力 于 通过 设计 特征 的 提取 来 解决 上 述 问题 。 昌 然 在 一 些 情况 下 这 些 
特征 显示 了 充分 的 效果 , 但 是 在 大 多 数 情 况 下 仍然 存在 判别 力 不 足 的 问题 , 并 不 能 用 来 解决 


识别 、 检 测 等 涉及 相对 高 层 语义 的 问题 。 近 年 来 , 学 者 提出 一 种 基于 稀 疏 编码 的 局 部 视觉 


! 


词 编码 方法 B99， 在 多 个 基准 


者 们 还 提出 了 若干 类 似 的 方法 ， 例 如 局 部 线性 编码 "等 ， 也 都 被 证 明了 能 比 传统 的 视觉 特 


视觉 数据 集 上 获得 优越 的 分 类 性 能 。 基 于 稀 玻 编码 的 思想 ， 


E 4E 


征 更 好 地 应 对 视觉 表 观 信息 丰富 的 变化 。 马 瑞 艾 尔 (Marial) 等 人 后 进一步 发 现 将 判别 信息 


《例如 类 别 信息 等 ) 引入 稀世 编码 过 程 ， 能 够 使 所 提 特 征 具 有 更 好 的 语义 一 致 性 。 这 类 方法 


也 为 相关 研究 提供 了 指导 性 


dos 
H de 


对 于 不 同 语义 主题 的 图 


Eo 由 于 内 容 既 存在 类 内 的 变化 ,也 存在 一 定 的 类 间 差 异 及 共性 ， 


类 别 间 的 组 织 结构 对 分 类 识别 模型 的 学 习 起 到 重要 的 作用 。 传 统 的 一 对 多 的 分 类 模型 虽然 成 


功 应 用 于 处 理 小 数据 量 或 者 1 


理想 实验 环境 数据 ,但 由 于 极 多 类 别 带 来 的 类 样本 分 布 极度 


不 均衡 以 及 数据 来 源 域 的 多 样 性 , 造成 了 模型 的 退化 。 一 种 可 行 的 解决 之 道 是 利用 图 像 类 别 


的 层次 化 组 织 关系 “" ”构建 判别 模型 。 近 年 来 ， 深 度 学 习 “ “被 广泛 应 用 在 视频 、 图 像 、 音 


频 、 文 本 等 数据 分 类 和 处 理 ， 


放 获 得 了 超越 〈 几 乎 所 有 ) 经 典 方法 的 性 能 ， 已 逐渐 成 为 一 种 


基准 方法 。 深 度 学 习 对 数据 进行 多 个 层次 的 “抽象 ”表示 ， 这 与 以 往 统计 学 习 方法 具有 显著 
不 同 ， 更 适合 于 处 理 具有 复杂 内 容 的 跨 媒体 数据 ， 将 成 为 研究 的 热点 。 


作为 另外 一 种 可 行 途径 ,利用 多 个 核 函数 处 理 多 特征 信息 的 多 特征 融合 方法 在 计算 机 视 


觉 方面 也 获得 很 大 成 功 所 5， 并 已 经 成 为 一 种 处 理 视觉 分 类 问题 的 基准 方法 。 同 时 ， 在 视 
觉 方面 的 研究 也 促进 了 多 核 学 习 的 发 展 。 例 如 ， 杨 唱 唱 〈 音 译 ，Jingjing Yang ) PRIRA 
局 核 权 重 学 习 方 式 在 面 对 视觉 数据 复杂 的 分 布 形态 时 不 能 很 好 地 适应 , 而 样本 敏感 的 多 核 学 


习 B4 又 会 对 噪声 产生 过 度 的 
的 核 权 重 学 习 思 想 。 事 实 上 ， 


相关 方法 的 研究 不 同 ， 以 多 核 学 习 方式 进行 的 信息 融合 涉及 到 众多 特征 之 间 的 结构 化 信息 。 


响应 从 而 导致 过 拟 合 和 模型 退化 ， 并 针对 这 一 问题 提出 组 敏感 
多 核 学习 的 本 质 ， 仍 旧 是 特征 选择 和 多 源 信息 融合 。 和 传统 的 


今后 ， 这 方面 的 研究 仍 将 是 热点 。 


2.2 跨 媒 体 数据 关联 建 模 


在 过 去 的 十 几 年 研究 当中 , 为 了 有 效 组 织 网 络 数据 使 用 户 能 够 准确 和 快速 地 检索 到 具有 


视觉 和 语义 相关 性 的 网 络 文档 , 相关 领域 的 学 者 从 不 同 几 个 方面 进行 了 大 量 的 研究 工作 , 例 


如 索引 外、 检索 模型 中 。 最 典型 的 一 种 适合 于 大 规模 数据 检索 的 技术 是 近似 近邻 查找 技术 。 
例如 局 部 敏感 哈 希 方法 (LSH) 被 提出 以 解决 高 维 空间 中 的 近似 近邻 查找 问题 。 为 了 进 一 


步 提升 性 能 ， 学 者 们 进一步 研究 基于 学 习 的 哈 希 方法 ， 例 如 谱 哈 希 " 、 语 义 哈 希 "和 针对 特 
定 任务 的 哈 希 码 学 习 技术 "等 。 为 了 利用 数据 的 非 线性 相似 性 度量 , 库 里 斯 Kulis) EAP 
提出 在 给 定 的 核 表 示 上 直接 构建 哈 希 函数 ， 这 种 技术 被 称 作 核 化 哈 希 。 王 树 微 等 人 "将 核 
化 哈 希 扩展 到 多 特征 表示 上 。 刘 威 〈 音 译 ，Wei Liu) 等 人 提出 利用 样本 类 信息 的 基于 学 习 


的 核 化 哈 希 方法 中 ,其 他 一 些 工 作 "提出 了 一 系列 算法 框架 , 利用 样本 类 信息 和 多 特征 表 


示 进 行 哈 希 函数 学 习 。 这 些 工 作 都 是 仅仅 考虑 了 单 模 态 数据 ,并 不 适用 于 解决 跨 模 态 数据 的 


问题 。 
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本 质 而 言 , 跨 模 态 数据 检索 需 将 不 同 模 态 的 异 构 数据 映射 到 一 个 统一 的 可 度量 的 表示 空 
间 当 中 。 为 达到 这 个 目的 ， 两 个 要 求 十 分 重要 : 首先 ， 在 模 态 内 部 ， 语 义 上 相似 (不 相似 ) 的 


数据 在 统一 表示 空间 中 也 应 该 相似 (不 相似 )， 这 种 模 态 内 部 的 相似 性 可 以 由 局 部 邻接 结 


qj Ut 


“或 者 样本 类 信息 提供 5。 第 二 ,器 模 态 的 相关 (不 相关 ) 内 容 在 统一 表示 空间 中 应 该 相 


似 (不 相似 ) "9。 为 达到 这 两 个 要 求 ， 相关 的 研究 可 粗略 划分 为 子 空间 学 习 和 话题 模型 两 大 


子 空间 学 习 的 目的 是 找到 两 个 模 态 中 使 其 模 态 间 相 关 性 最 大 的 低 维 子 投影 空间 表示 ,经 


= 


JH Se AY HE (CCA)U Fe Ee ae gp U9 p T — ppp ix^ qnl A eR Te. 拉 斯 瓦 夏 
(Rasiwasia) 等 人 基于 CCA 子 空间 表示 提出 一 种 跨 模 态 内 容 的 话题 分 类 器 2 如 图 1 所 示 。 
其 基本 流程 如 下 : 首先 ， 基 于 图 像 和 文本 文件 的 共生 关系 ， 通 过 CCA 学 习 生 成 一 对 使 图 像 
和 文本 内 


容 相 关 性 最 大 化 的 子 空间 ， 并 将 图 像 和 文本 投射 到 子 空间 当中 ; 其 次 , 在 各 自 的 子 


空间 表示 上 构建 语义 分 类 器 ,得 到 不 同 模 态 文件 在 一 个 低 维 语义 空间 上 的 概率 化 表示 , 这 个 


表示 被 认为 能 够 很 好 地 体现 数据 的 语义 信息 ; 最 后 , 在 语义 空间 上 对 比 不 同 的 跨 模 态 数据 之 


间 的 语义 相关 性 。 然 而 ,该 方法 忽略 了 模 态 内 部 数据 之 间 的 相关 性 ， 并 且 其 采用 的 分 步 式 映 


射 学 习 策略 不 能 保证 所 得 到 的 语义 映射 是 最 优 的， 故 只 能 处 理 小 规模 跨 模 态 数据 。 


此 外 ， 布 朗 斯 廷 (Bronstein) 等 人 提出 一 种 基于 boosting 的 哈 希 码 学 习 方法 ， 学 习 到 


语义 概念 1 
Ec zs iB] AU 图 像 分 类 器 


AN sl. 
e} 
| 分 析 
OO 


文本 空间 R7 
相关 语义 空间 5 
All. 跨 模 态 关联 学 习 示 例 


系列 的 “ 弱 哈 希 函 数 ”及 其 组 合 权重 ， 并 用 来 计算 跨 模 态 的 加 权 汉 明 距 离 " 7” 。 马 希 (Masci) 
等 人 5 扩展 了 引文 [17] 中 的 模型 , 在 多 层 神经 网 络 的 基础 上 对 模 态 内 部 的 相似 性 信息 和 模 态 


间 的 相关 信息 加 以 利用 。 基 于 图 表示 的 方法 将 模 态 内 部 的 相似 性 信息 和 模 态 间 的 相关 信息 用 


统一 的 图 
间 。 基 于 类 似 的 思路 ， 宋 静 宽 (音译 ，Jingkuan Song) 等 人 四 9 提出 一 种 基于 模 态 内 和 模 态 间 


结构 来 表示 , 而 该 图 表示 的 最 小 特征 值 对 应 的 特征 空间 就 是 需要 寻找 的 跨 模 态 子 空 


关系 建 模 的 图 分 解 方 法 用 于 跨 模 态 喻 希 学 习 。 子 空间 学 习 的 方法 一 般 需要 多 模 态 数据 严格 对 
齐 ， 同 时 被 组 织 成 一 对 一 的 数据 对 ， 也 就 是 说 ， 每 个 文本 /视觉 文件 必须 有 一 个 对 应 的 视觉 / 
文本 文件 。 然 而 ， 当 处 理 网 络 数据 时 ， 这 种 要 求 一 般 很 难 满 足 。 另 外 ， 子 空间 学 习 一 般 只 能 
针对 两 个 模 态 的 数据 ， 对 于 多 个 模 态 ,一 般 将 其 分 解 为 一 系列 的 两 两 模 态 对 应 问题 , 不 可 避 
免 地 带 来 计算 复杂 度 的 提高 。 


在 隐 含 话题 模型 中 ， 需 要 学 习 隐 含 话 题 来 对 多 模 态 内 容 的 关联 方式 进行 概率 化 建 模 。 


Correspondence LDA (Corr-LDA, 一 致 性 隐形 狄 利克 雷 分 布 ) 方 法 听 试 图 捕捉 图 像 和 文字 标注 
之 间 的 话题 级 别 的 关系 。 萧 寒 (音译 ，Han Xiao) APAS LDA 和 Cor-LDA 等 方法 用 


于 将 图 像 和 声音 通过 文本 标签 关联 起 来 。 页 扬 清 (Yangqing Jia〉》 等 人 提出 的 模型 中 可 以 看 


作 是 在 LDA 话题 模型 基础 上 构建 的 马尔 可 夫 随 机 场 ， 其 特点 是 不 需要 数据 以 一 对 一 的 方式 
加 以 组 织 。 甄 宜 〈 音 译 ，Yi Zhen) 等 人 ”提出 一 种 隐 含 二 值 嵌 入 的 方法 ， 其 本 质 是 同时 学 
习 隐 含 话题 分 布 及 二 值 化 的 权重 表示 , 并 以 此 来 刻画 被 观测 到 的 模 态 内 部 和 不 同 模 态 数据 的 


相似 性 。 


We (音译 ，Ning Chen) 等 人 ”提出 一 种 多 视角 最 大 间隔 (margin). 的 隐 含 子 空 
5 


间 学 习 ， 获 得 了 非常 好 的 学 习 效果 。 PRIM, 虽然 有 些 研 究 试 图 在 对 多 模 态 数据 ， 
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复杂 的 话题 


级 别 的 关系 进行 良好 的 建 模 ， 这 类 方法 一 般 不 适用 于 大 数据 学 习 问 题 。 


2.3 跨 媒体 网 络 社 群 分 析 


网 络 社 群 的 出 现 是 跨 媒 体 兴 起 的 主要 原因 之 一 ， 这 为 跨 媒体 数据 分 析 提 供 了 大 量 信息 
为 个 性 化 服务 提供 新 契机 ， 但 也 对 计算 机 领域 提 HH | 


(Facebook) 等 社交 网 络 的 分 析 与 研究 已 经 吸引 了 大 量 学 者 。 


户 交 互 结果 、 信 息 内 容 和 信息 时 效 怕 


上 了 新 的 难题 。 对 推 特 〈Twitter )、 脸 谱 
在 推 特 平台 上 ， 研 究 者 从 用 


等 不 同 角 度 进 行 了 统计 来 分 析 用 户 行为 2 。 一 些 相关 


工作 进一步 展开 ， 例 如 杨 大 等 人 对 Hashtag 〈 哈 希 标签 ) 信息 传播 进行 分 析 建 模 ， 戈 什 
(Ghosh) 5 等 通过 对 推 特 的 链接 耕作 模式 (link farming) 进 行 发 气 ， 从 不 同 角度 切入 来 分 析 


户 的 行为 。 庄 金 锋 (音译 , Jingfeng Zhuang) 所 等 提出 一 种 面向 网 络 社 群 用 户 的 融合 视觉 、 


文本 、 社 会 标记 、 用 户 仿 好 等 信息 的 跨 媒 体 推荐 方法 。 然 而 ， 针 对 网 络 社 群 的 研究 工作 仅仅 


是 刚 起 步 , 尤其 是 网 络 社 群 和 跨 媒 体内 容 之 间 的 交互 影响 机 制 还 不 能 
学 者 们 更 加 深入 地 挖掘 与 探讨 。 


3 ”本 课题 组 的 研究 工作 进展 


本 组 围绕 跨 媒体 数据 关联 理解 与 深度 挖掘 这 个 科学 问题 展开 了 研究 工作 , 内 容 包 括 针 对 


跨 媒体 数据 呈现 的 多 态 性 、 异 构 性 、 海量 性 和 社会 性 等 特点 , 分 析 跨 媒体 数据 ! 


效 进 行 分 析 , 还 需要 


体 智能 的 协同 反馈 计算 手段 。 我 人 
语义 分 析 和 理解 ””“ 跨 媒体 话题 入 


话题 及 重大 事件 结构 模式 ; d 
表示 和 追踪 模型 ; 提出 检测 突 发 性 


强 含 的 热点 


工作 并 推动 其 不 断 深入 , 重点 看 


的 数据 关联 机 制 ， 并 利用 多 模 态 融合 及 多 源 信息 ( 超 链 接 信息 、 


究 跨 媒体 数据 的 语义 关联 学 习 方 法 ， 建 立 跨 媒体 事件 的 检测 、 
热点 话题 及 重大 事件 的 计算 模型 和 学 习 方法 , 形成 基于 群 
] 以 现实 环境 的 跨 媒 体 数据 形态 为 研究 背景 ， 按 照 “ 跨 媒体 
1 事件 分 析 ” 以 及 “ 跨 媒 体 社 会 属性 ”等 三 条 主线 展开 研究 


究 如 何 构建 有 效 的 跨 媒体 语义 单元 学 习 模型 和 不 同 模 态 之 间 


指导 信息 以 及 社会 群体 信息 等 ) 提高 对 跨 媒 


在 跨 媒 体 语 义学 习 方 面 , 我 们 提出 了 半 监 督 多 核 学 习 方 法 ,以 有 效应 对 跨 媒 体 的 多 样 


特点 和 噪声 , 在 效率 和 可 扩展 性 上 优 于 现 有 半 监 督学 习 方法 ; 


标注 信息 、 社 会 标签 、 网 络 


事件 和 话题 的 分 析 效 果 。 


LE 


生 


是 出 了 字典 学 习 和 判别 学 习 模 


型 ， 对 视觉 信息 的 空间 上 下 文 进 行 建 横 ， 有 效 挖掘 层 次 化 语义 信息 ,构建 层次 化 语义 标注 模 


型 , 创新 性 地 提出 了 一 种 多 层 判 别 字 典 学 习 和 判 另 
义 关 联 方法 ， 有 效 克 服 了 视觉 多 义 诉 
的 数据 库 和 评测 平台 ， 为 跨 媒 体 关 联 分 析 提 供 


在 热点 话题 和 重大 事件 检测 方面 , 我 们 提出 了 跨 媒 体 相 似 | 
和 不同 跨 媒体 学 习 任 务 的 信息 共享 ， 从 而 提升 了 跨 媒体 相似 性 
和 融合 的 话题 检测 模型 ， 对 跨 媒 体 事件 和 话题 的 社会 信 
行 了 有 效 建 模 ， 殉 服 了 传统 的 基 了 


体 信息 的 多 模 态 性 , 实现 了 多 利 
度量 的 表示 能 力 ; 提出 了 基于 多 源 信 ， 
县 、 指 导 信息 、 时 序 信息 和 多 模 态 信息 等 进 


题 检 测 方法 的 不 足 。 


在 跨 媒体 社会 属性 分 析 方 面 , 我 们 针对 移动 
属性 行为 建 模 的 多 解析 度 和 结构 化 行为 数据 分 析 、 六 
体 用 户 行为 的 复杂 性 和 多 样 性 。 


3.1 跨 媒 体 语义 分 析 和 理解 


= 


I 学习 交 互 提 升 的 学 习 框 架 ; 提出 了 视觉 语 
E 和 语义 多 态 性 等 问题 , 建立 了 符合 现实 跨 媒体 数据 特性 
了 新 的 解决 思路 。 


站 度量 学 习 方 法 ,以 应 对 跨 媒 


单 源 信息 的 话 


用 户 和 社会 网 络 用 户 , 提出 了 若干 基于 多 源 


[群发 现 和 实体 链接 方法 ， 有 效应 对 了 群 


由 于 海量 跨 媒 体 数据 的 复杂 内 在 分 布 , 跨 媒 体 语义 单元 学 习 面临 着 跨 媒体 数据 特征 和 高 
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层 语义 缺乏 
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E 、 标 注 数据 
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生 差 、 以 及 跨 平台 和 跨 模 


等 主要 挑战 。 这 些 挑战 一 方面 导致 现 有 的 特征 表示 和 判别 模型 


不 能 够 很 好 地 适应 不 同 跨 媒体 语义 学 习 任 务 的 要 求 , 另 一 方面 使 得 现 有 跨 媒 体 特征 表示 不 能 


LI 


HER 


EXER. 


国电 机 1 


EF LE 


水 了 


3.1.1 特征 表示 


主流 的 


有 效应 对 跨 媒 体 数 据 的 模 态 异 构 怕 
判别 模型 、 检 索 模 型 ] 
包子 工程 师 学 会 图 像 处 理 汇 刊 (IEEE Transactions on Image Processing)), 《美国 
学 会 多 媒体 汇 刊 (IEEE Transactions on Multimedia)》、 美 国 
计算 机 视觉 与 模式 识别 会 议 (IEEE Conference on Computer Vision and Pattern Recognition, 


CVPR) 等 高 水 平 国 际 期 刊 和 


国际 会 议 上 。 


图 像 描述 是 


JEJ 


词 袋 模型 ，{ 


于 


缺乏 空间 信 ， 
描述 能 力 和 快速 高 效 计 算 的 要 求 . 本 课题 提出 了 一 利 
式 Edge-SIFT。 为 了 使 生成 的 Edge-SIFT 更 加 紧 致 , FAHEY 


昌 描 述 能 力 ， 而 上 且 


E, 不 利于 挖 抉 其 复杂 关联 关系 。 H 
上 :提出 一 系列 行 之 有 效 的 解决 方案 , 研究 成 果 发 表 在 《 美 


ET AMF 
上 了 二 


对 这 些 问 题 ， 


课题 组 分 


电机 


EpL 


a 


和 边缘 提取 


的 判别 学 习 方法 , 以 便 对 该 紧凑 模式 进行 选择 , 得 到 适应 海量 近似 


此 外 , 本 课题 基于 所 提出 的 Edge-SIFT 发 


量 实验 验证 


在 


ba 


H 


了 其 有 效 


生 和 高 效 性 。 


像 语义 理解 中 , 视觉 多 义 怕 


ba 


y- 


一 块 视觉 表 


p 


观 可 能 有 f 


各 种 不 


i LRT 


的 概念 都 有 一 个 概率 联系 ， 这 种 
生成 有 判别 能 


为 了 通过 学 


' 
E 


民 多 不 同 的 语义 解释 ; 


司 的 视觉 表 观 。 本 课 


采用 了 混 


fn 


已 式 了 


3.1.2 判别 模型 


针对 传统 半 监 督学 习 方 法 的 不 足 ， 我 们 提出 一 种 可 扩展 的 
训练 样本 上 的 训练 损失 、 组 稀 朴 参数 正则 化 和 无 标 
与 传统 的 直 推 式 方法 不 同 ， 所 得 至 


(SMKL)。 其 损失 函数 当中 包含 了 有 标注 
样本 上 的 〈 组 ) 条件 期 望 
较 强 的 判别 性 ， 能 够 有 效 预 测 未 知 样本 上 
缠 含 的 噪声 样本 会 对 判别 模型 的 判别 物 
选择 ， 我 们 基于 核 化 局 部 敏感 哈 希 方法 构建 了 一 个 多 核 哈 希 系统 (MKLSH， 对 局 部 敏感 
的 KLSH 的 汉 明 码 拼 接 到 一 起 ， 形 成 了 对 
PRE BAAS SAE d 


vs 
YJ 


Hi 
本 


哈 希 (KLSH) 进行 了 改进 ， 即 将 在 多 个 核 上 进行 
像 的 多 核 局 部 敏感 哈 希 表示 。 在 我 们 的 工人 
征 的 核 化 哈 希 样本 选择 结合 了 起 来 .实验 表明 这 种 方法 能 够 更 加 有 效 
上 获得 了 比 传统 半 监 督学 习 方 法 更 佳 的 分 类 性 


海量 图 


进行 3 


au 
HE o 


传统 的 图 像 分 类 算法 和 


E 和 语义 多 态 性 问题 
B E 


展 了 一 种 可 快速 在 线 验 证 


的 全 


直 都 是 


EEF 


题 提 出 通过 一 种 新 的 视角 一 Vicept KF 
个 视觉 表 观 的 多 概念 概率 估计 。 在 Vicept 词典 9 
联系 整合 在 一 起 可 以 构成 一 个 视觉 表 观 隶属 度 的 概率 分 布 。 
喷 念 隶属 度 分 布 的 学 习 


H, 


BARAR Vicept， 在 视觉 表 观 的 
E 则 方法 。 此 外 ， 针 对 Vicept 的 多 层次 结构 ， 本 i 
离 度量 方法 ， 即 通过 多 层次 的 独立 性 分 析 来 融合 不 同 层次 的 Vicept 


一 致 性 损失 。 


的 类 别 标签 。 


H 


监督 模型 学 习 ， 


并 在 多 个 基准 数据 库 _ 


在 利 月 


子 工 程 师 学 会 


-尺度 不 变 特征 转换 (Scale-invariant feature transform, SIFT) 的 视觉 
[不够 紧 怪 ,不 能 很 好 满足 目前 对 特征 的 强 


的 紧凑 编码 模 


直 化 压缩 和 基于 Rankboost 
像 检 索 任 务 
JER SIA 


的 紧凑 码 本 。 
EAR, 通过 大 


个 挑战 。 视觉 多 义 性 是 指 


站 一 个 概念 在 不 同 的 实例 下 可 能 


个 Vicept 


每 个 视觉 表 观 和 每 个 确 


定 


果 题 引入 
述 。 


监督 多 核 学习 方 法 


新 的 距 


了 一 和 


| 的 判别 模型 具有 
海量 跨 媒 体 数 据 进行 学 习 时 ， 数 


FE 造 成 一 定 的 干扰 ,为 了 对 海量 无 标注 


e EUR 


样本 进行 样 


习 与 基于 多 特 


Lr EU 


FE 往 针 对 较 


Jo 但 是 ， 


现实 1 


PRA 


wipe 
ESATA S HS 


构 作为 先 验 ， 通 过 训练 


得 至 
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I 分 类 的 问题 ,我 们 以 根据 标签 信息 的 语义 相关 性 
I 一 组 有 监督 的 码 本 和 分 类 器 模型 ， 利 月 


地 利用 海 


EJP 


样本 


世界 跨 媒体 数据 的 类 别 极 多 。 本 
了 一 种 基于 树 结 构 的 多 层 判 别 字 典 学 习 算 法 (ML-DDL)， 用 于 克服 现 有 码 本 (特征) 


课 


构建 的 语义 树 结 


日 层次 结构 进行 码 本 学 习 ， 


跨 媒体 分 析 与 检索 技术 研究 进展 


将 原始 的 极 多 类 问题 分 解 为 多 个 较 易 处 理 的 多 层 分 类 子 问题 来 逐一 求解 , 大 大 降低 运算 复杂 
EE. 使 得 有 监督 的 码 本 学 习 能 适用 于 海量 类 别 的 分 类 任务 , 在 可 承受 的 时 间 开销 下 得 到 较 好 
的 分 类 性 能 。 


3.1.3 检索 模型 


为 了 克服 近邻 方法 的 不 足 , 我 们 提出 一 种 新 的 近邻 相似 性 度量 方法 , 与 以 往 距 离 度 量 的 
不 同 之 处 在 于 它 同时 利用 了 数据 的 局 部 密度 信息 和 语义 信息 。 其 次 , 采用 基于 核 化 局 部 敏感 
哈 希 方法 的 多 特征 近邻 搜索 策略 。 最 后 ， 为 了 提高 对 海量 内 容 的 鲁 棒 性 ， 采 用 了 多 特征 融合 
的 方法 , 将 在 不 同 特征 通道 上 计算 的 近邻 相似 性 度量 进行 融合 。 在 三 个 经 典 大 规模 图 像 数 据 
库 上 的 大 量 实验 表明 ， 这 个 方法 比 传统 的 近邻 方法 在 语义 分 析 和 检索 的 性 能 上 有 较 大 提升 。 


为 研究 跨 模 态 相关 模型 和 跨 模 态 检 索 技 术 , 我 们 设计 了 一 套 自 动 数 据 收 集 算法 来 构建 跨 
模 态 数据 库 。 数 据 库 包括 75K 段 文 本 文档 和 35K 幅 图 像 。 数 据 库 中 话题 内 容 的 分 布 广泛 ， 
不 同 横 态 的 文件 数量 不 均衡 ， 跨 横 态 共生 性 信息 较 稀 琉 ， 更 接近 真实 跨 模 态 数据 。 库 中 包含 
网 页 的 超 链 接 信 息 和 人 工 标注 的 类 别 信息 (预定 义 的 11 大 类 )。 对 图 像 文 件 ， 提 取 9 种 常用 
的 视觉 特征 ( 约 2 万 维 ), 对 文本 提取 经 典 的 TF-IDF 特征 ( 约 7 万 维 )。 该 数据 库 可 用 于 经 典 跨 
模 态 分 析 方 法 的 评测 以 及 新 的 跨 模 态 分 析 方 法 的 研究 和 评测 。 


3.2 跨 媒 体 事 件 和 话题 分 析 


跨 媒 体 事件 和 话题 检测 与 分 析 面 临 着 三 大 挑战 : 社会 交互 多 样 化 ,新 式样 层出不穷 数 
PERLE, WEKKA: 指导 信息 不 足 ， 粒 度 大 小 不 一 。 为 了 对 跨 媒体 事件 和 话题 进行 
有 效 表示 、 检 测 及 追踪 ， 本 课题 充分 考虑 跨 媒体 数据 的 产生 、 扩 散 和 关联 机 制 ， 从 如 下 思路 
展开 研究 。 第 一 ， 利 用 多 特征 互补 信息 以 及 最 大 间隔 (maximum margin) 学 习 等 策略 ， 学 
习 和 构建 跨 媒体 话题 的 相似 性 度量 。 第 二 ,融合 多 源 、 多 模 态 信息 构建 跨 媒体 数据 的 关联 模 
型 ， 利 用 热 搜 词 指导 发 现 社会 热点 话题 。 研 究 成 果 发 表 在 2012 年 的 美国 电机 电子 工程 师 学 
会 计算 机 视觉 与 模式 识别 会 议 、 美 国 计 算 机 协会 2012 年 多 媒体 会 议 CACM Multimedia 
2012)、 美 国 计 算 机 协会 国际 多 媒体 会 议 及 博览 会 (IEEE ICME) 等 国际 会 议 上 。 


3.2.1 跨 媒体 结构 表示 


对 于 海量 跨 媒体 信息 处 理 的 研究 而 言 , 寻求 理想 的 距离 度量 表示 是 绝 大 多 数 分 析 模 型 的 
核心 部 分 或 者 研究 重点 。 然而 , 传统 的 度量 学 习 方法 无 法 很 好 地 适应 高 维 多 特 征 表达 以 及 复 
杂 的 语义 结构 和 表 观 视觉 分 布 。 为 此 ， 我 们 提出 了 一 种 有 效 的 多 任务 多 特征 度量 学 习 方法 ， 
利用 网 络 跨 媒体 的 语义 标注 信息 和 社会 标签 信息 进行 多 任务 学 习 , 得 到 一 种 在 多 特征 表示 下 
具有 语义 一 致 性 的 低 复杂 性 度量 准则 。 所 提 方 法 能 够 有 效 融合 多 种 特征 表示 ,， 相 比 于 传统 方 
法 ， 学 习 到 的 特征 的 复杂 度 (模型 参数 个 数 ) 也 显著 降低 。 该 方法 的 另外 一 个 优点 是 能 够 根据 
学 习 任务 的 需求 , 有 效 控制 需要 优化 的 相似 性 度量 数量 , 在 准确 率 和 训练 时 间 开 销 之 间 的 折 
衷 可 达到 更 好 效果 。 在 多 个 数据 库 上 的 多 项 实验 表明 该 方法 的 性 能 比 其 它 方法 有 显著 的 提 


EX 


IF] o 


3.2.2 基于 多 源 信息 融合 的 跨 媒体 事件 和 话题 分 析 


不 同 于 传统 的 基于 聚 类 的 主题 检测 方法 , 我 们 提出 了 一 种 新 颖 的 基于 多 线索 融合 的 网 络 
视频 话题 检测 方法 。 首 先 ， 利 用 与 视频 相关 的 标签 信息 ， 提 取 密 集 突 发 的 标签 组 ， 作 为 事件 
的 备 选 。 其 次 ， 检 测 相 似 视频 片段 ， 并 将 其 与 视频 的 标签 进行 融合 形成 视频 标签 组 。 最 后 ， 
通过 对 热 搜 词 的 时 域 特征 分 析 ， 过 滤 掉 突 发 性 低 的 热 搜 词 ， 指 导 事件 检测 。 
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we 
ATETE 


有 限 的 。 相 比 之 下 , 来自 于 不 同 媒体 源 的 信 ， 
映 社会 现实 。 因 此 ， 有 效 利 用 不 同 数据 源 间 的 互补 性 ， 
径 。 为 此 ， 我 们 提出 一 种 灵活 的 多 模 态 信息 融 
据 间 的 语义 关联 信息 ,对 跨 媒 体 中 的 话题 结构 进行 检测 。 首 先 
重 融 合 了 多 模 态 内 容 的 相似 性 和 时 间 信 息 。 由 于 属于 同 


是 提升 


合 的 跨 媒体 数据 表示 届 


话题 检测 与 


E 染 ,充分 利用 
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， 建 立 多 模 态 
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中 边 的 权 
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似 度 关系 的 密集 子 图 ， 故 可 通过 图 聚 类 方法 查找 密集 子 图 


» Af 


话题 的 数据 自然 地 形成 具有 紧密 相 
实现 跨 媒体 话题 检测 。 在 公 


共 数 据 集 及 自 建 跨 媒 体 数据 集 上 的 实验 结果 表明 这 一 策略 能 够 有 效 检 测 跨 媒体 话题 。 


3.3 跨 媒 体 用 户 行为 分 析 

针对 移动 用 户 和 社会 网 络 用 户 , 我 们 提出 了 若干 基于 多 源 
和 社 群 发 现 方法 ， 有 效应 对 了 和 群体 用 户 行为 的 复杂 性 和 多 样 
的 用 户 轨 迹 行为 数据 ,分 别提 取 轨 迹 中 地 点 的 语义 信息 、 


=< 


和 轨迹 物理 相似 性 信息 , 最 后 将 多 种 行为 的 相似 度 进行 加 权 融 合 ， 
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检测 到 一 系列 具有 长 时 段 相 似 行为 的 
体内 容 分 析 技 术 ， 提 出 一 种 多 源 异 构 行 为 建 模 机 
等 ) 提出 一 种 概率 化 匹配 方法 ; 对 用 户 的 行为 人 
述 方法 。 对 用 户 的 转载 、 引 

利用 神经 网 络 的 池 化 方法 去 计算 用 户 在 多 个 时 间 
相似 性 描述 ， 一 种 基于 多 目标 优化 的 结构 化 
好 友信 息 对 判别 结果 进行 有 效 扩散 
究 成 果 分 别 被 美国 计算 机 协会 的 国 
专业 委员 会 年 度 会 议 (SIGMOD 2014) 录 


3.4 研究 进展 小 结 
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提出 一 种 多 时 域 解析 度 的 
用 、 地 点 记录 等 行为 模式 ， 提 出 一 种 多 时 间 窗 宽 的 
窗 宽度 上 的 总 体 行为 相似 性 。 基 于 这 些 行为 
匹配 学 习 方 法 ,有 效 利 用 社会 
， 达 到 了 对 跨 社 会 媒体 平台 用 户 进行 自动 匹配 的 目的 。 研 
际 信息 与 知识 管理 大 会 CACM CIKM 2013) 和 数据 管理 


针对 社会 


属性 行为 建 模 的 轨迹 数据 分 析 
k 体 而 言 ， 我 们 针对 大 规模 
速度 模式 信息 、 时 间 间 隔 模 式 信 息 
并 利用 密集 子 图 检测 方法 
网 络 用 户 ， 引 入 多 媒 
、 邮 箱 、 


EA 


国籍 、 Wx 


内 容 分 布 


匹配 


EA, Jf 


网 络 中 


户 的 


媒体 和 多 媒体 的 事件 和 话题 分 析 , E 


长 期 以 来 , 针对 单 


Wr 


FEL 


: 往 采用 单一 媒 


体 主题 建 模 、 单 
呈现 的 多 态 性 、 异 构 性 、 海 量 性 和 社会 性 特点 ， 


按照 “ 跨 媒体 语义 单元 学 习 ”“ 热 点 话题 和 事件 检测 ”和 “ 跨 媒体 
开 究 , 基于 多 源 信息 和 多 特征 融合 这 个 主要 的 研究 出 发 点 , 有效 利用 跨 媒 体 上 
晶 解 和 关联 框架 , 解决 了 在 高 噪声 和 复杂 关联 背 
fT 和 用 户 行为 分 析 等 问题 。 


n 
构建 适合 海量 跨 媒体 数据 的 语义 分 析 、 内容: 
景 下 对 现实 跨 媒 体 的 语义 分 析 、 事 件 话题 分 


模 态 分 析 方 法 和 简单 的 话题 结构 建 模 方法 。 本 课题 充分 考虑 了 跨 媒体 数据 
以 现实 环境 的 跨 媒体 数据 形态 为 有 
JP ATA IET 


究 背 景 ， 
三 条 主线 
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与 国内 外 同类 研究 工作 相 比 , 本 实验 室 的 主要 创新 性 成 果 包 括 : 提出 半 监 督 多 核 学 习 方 


法 ， 利 用 跨 媒体 数据 源 的 多 特征 表示 ， 有 效应 对 跨 媒 体 的 多 样 性 特点 和 噪声 问题 ， 克 服 了 传 


统 的 基于 多 特征 融合 的 语义 学 习 方法 的 不 足 ; 提出 字典 学 习 和 判别 学 习 模型 , 对 视觉 信息 的 


空间 上 下 文 进 行 建 模 ， 有 效 挖掘 层次 化 语义 信息 ， 构 建 
语义 类 别 结构 , 创新 性 地 提出 了 一 种 多 


出 视觉 语义 关联 方法 ， 有 效 克 服 了 视觉 多 义 性 


带 来 的 困难 


数据 到 语义 空间 的 映射 模型 ,建立 了 符合 现实 跨 媒 体 数据 特 必 
体 关 联 分 析 提 供 了 新 的 解决 思路 ; 提出 跨 媒体 相似 性 


度量 学 习 方法 ， 构 


层次 化 语义 标注 模型 ， 
层 判 别 字典 学 习 和 判别 学 习 交互 提升 的 学 习 框架 ; 提 
和 语义 多 态 性 等 


并 针对 层次 化 


b. 构建 了 高 维 视觉 
的 数据 库 和 评测 平台 
建 了 低 复杂 度 的 跨 媒 


， 为 跨 媒 


体 相 似 性 度量 ， 满 足 


AC 


E 
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了 复杂 跨 媒体 学 习 任务 的 需求 , 并 实现 了 多 种 不 同 跨 媒体 学 习 任务 的 信 


息 共享 , 从 而 提升 了 跨 媒 体 相似 性 度量 的 表示 能 力 ; 提 


对 跨 媒体 事件 和 话题 的 社会 信息 


、 指 导 信息 、 时 序 信 ， 


出 基于 多 源 信息 融合 的 话题 检测 模型 ， 
乱 和 多 模 态 信息 等 进行 了 有 效 建 模 ， 克 


服 了 传统 的 基于 单 源 信息 的 话题 检测 方法 的 不 足 , 实现 了 跨 媒体 话题 检测 。 在 跨 媒体 社会 网 
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法 ， 有效 


跨 媒体 分 析 与 检索 技术 研究 进展 


种 新 的 下 


4 总 


为 方面 ， 提 出 了 有 别 于 以 往 基 于 纯 文本 行为 分 析 的 一 系列 基于 多 源 行为 分 析 的 方 
地 解决 了 社会 网 络 社 群发 现 和 账户 链接 等 应 用 问题 , 为 社会 网 络 行为 分 析 提 供 了 一 
完 思路 。 

结 


在 未 来 五 到 十 年 内 ， 跨 媒体 分 析 和 检索 技术 将 逐渐 成 为 学 术 界 和 产业 界 的 研究 热点 。 由 
于 跨 媒体 大 数据 中 蕴含 着 极 大 的 价值 , 能 否 有 效 地 挖 所 这 些 价值 , 将 直接 决定 各 类 信息 和 知 
识 服务 系统 的 服务 质量 和 用 户 体验 满意 度 ， 决 定 媒体 大 数据 分 析 产 业 的 兴衰 成 败 。 

从 未 来 的 发 展 趋势 来 看 ， 跨 媒体 分 析 的 核心 目标 仍然 将 是 “语义 和 “关联 ”和 “ 社 群 ” 


为 适应 跨 媒 体 数据 自身 各 种 复杂 的 特性 , 在 数据 分 析 理 论 上 叹 需 更 具有 指导 性 和 针对 性 的 理 
论 方法 , 相应 的 分 析 和 检索 技术 也 必须 不 断 创新 , 才能 够 更 好 地 满足 日 益 增 长 的 媒体 大 数据 


分 析 的 需求 。 
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